从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。
强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。
尽管人工智能(AI)在飞速发展,当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代,过程费时费力。
你能想象一个汽车经销商每天漏接45%电话的场景吗?这意味着几乎一半想要预约保养、询问配件或购车咨询的客户都被直接晾在了一边。
在 AI 领域,英伟达开发的 CUDA 是驱动大语言模型(LLM)训练和推理的核心计算引擎。
“对发现问题的投入,与解决问题同样重要。”这是上海人工智能实验室主任周伯文在首届明珠湖会议所作开场报告中的核心观点之一。
第一个 AI 搜索引擎,要归苹果了?
最近,一类「穿越 vlog」爆火了。有人让 Veo 3 变成「时间机器」,将人们带回历史事件中进行现场直播。
随着语言模型在强化学习和 agentic 领域的进步,agent 正在从通用领域快速渗透到垂直领域,科学和生物医药这类高价值领域尤其受到关注。
在 AI Agent 浪潮席卷行业的当下,高效优雅开发具备复杂推理与协作能力的智能体成为业界焦点。本文将系统梳理 AI Agent 核心理念、主流协议与思考框架,并结合 Golang 生态工程化框架,深入剖析多 Agent 协作系统的设计与落地。
MarTech 一直是 SaaS 的重「金」区和激战区。因为离钱近,很多有野心的 founder 在思考如何借助 AI 创业时,都会首选 AI + MarTech 领域。